对于资深开发者,AI 工具反成效率减速带

2025/07/11

内容来源:测量 2025 年初 AI 工具对资深开源开发者生产力的影响

原文链接:Measuring the Impact of Early-2025 AI on Experienced Open-Source Developer Productivity


这个实验通过观察 16 名经验丰富的开源开发者(均长期贡献于知名的开源项目,GitHub 星数超过 2.2 万,代码行数超过百万)参与实验,通过设置允许或禁止使用 AI 工具完成任务的对照,来观察 AI 工具对开发者生产力的影响。

实验结果

在允许使用 AI 工具的情况下,开发者完成任务所需时间增加了 19%,这一结果与开发者的预期完全相反:

造成效率降低的原因分析

因素相关观察
对 AI 工具过于乐观开发者原本预期使用 AI 后任务耗时将减少 24%。即使亲身体会到了 AI 导致任务时间增加,他们事后仍估计 AI 节省了 20% 的时间。
开发者对代码库过于熟悉开发者在自己更熟悉的任务上,被 AI 拖慢的情况更明显。开发者表示,丰富的个人经验使得 AI 很难有效地提供帮助。参与者平均有 5 年经验,且在相关代码库的贡献平均达到 1500 次提交。
大型复杂代码库开发者报告称,在大型复杂环境中 AI 表现更差。所选代码库平均已有 10 年历史,代码规模超过 110 万行。
AI 生成结果可靠性低开发者接受的 AI 生成代码不足 44%。大多数开发者表示需要对 AI 生成的代码做重大修改。大约 9% 的工作时间花费在审阅和修改 AI 生成的代码上。
隐含的代码库上下文开发者表示 AI 无法有效利用隐含的知识或代码库上下文信息。

如何解释相关 AI 工具在标准评测及大众使用中表现出色?

以下表格比较了几种证据来源的差异:

本次 RCT 实验标准化评测 (如 SWE-Bench Verified)大众普遍使用的反馈
任务类型真实大型开源代码库中的问题修复和功能实现独立、明确且易自动化评分的任务多样化、范围广泛
成功标准代码能满足真实审查需求 (风格、文档、测试等)算法自动评分人类用户认为代码"有用"即可
AI 形式聊天、Cursor 智能模式、自动补全通常为全自动化的 AI 智能体各种不同 AI 模型和工具
观察结果在真实任务 (约 20 分钟至 4 小时) 中,AI 让人类开发者变慢AI 在难度极高的标准任务中表现出色很多反馈 AI 对长时间任务 (>1 小时) 非常有用

点此查看原文